计算和实验能力的改进正在迅速增加常规产生的科学数据量。在受内存和计算强度约束的应用中,过大的数据集可能阻碍科学发现,使数据降低数据驱动方法的关键组件。数据集在两个方向上增长:数据点数及其维度。虽然数据压缩技术涉及减少维度,但这里的重点是减少数据点的数量。建议策略选择数据点,使得它们统一地跨越数据的相位空间。所提出的算法依赖于估计数据的概率图并使用它来构造接受概率。使用迭代方法来准确地估计当仅使用小型数据集的小子集来构造概率图时稀有数据点的概率。代替将相位空间融合以估计概率图,其功能形式近似于标准化流程。因此,该方法自然地延伸到高维数据集。所提出的框架被证明是一种可行的途径,以便在可以使用丰富的数据时实现数据有效的机器学习。该方法的实现是在伴随存储库中(https://github.com/nrer/phase-space-sampling)。
translated by 谷歌翻译
我们介绍了新的新闻文章集合,该文章源自伪造和真实的新闻媒体来源,以分析和预测新闻病毒性。与现有的伪造新闻数据集不同,该数据集包含索赔或新闻文章的标题和正文,在此集合中,每篇文章都得到了Facebook参与数的支持,我们认为这是文章病毒性的指标。此外,我们还提供了文章说明和缩略图图像,与该文章在Facebook上共享。这些图像是用对象标签和颜色属性自动注释的。使用基于云的视觉分析工具,还分析了面部的缩略图图像,并用面部属性注释了检测到的面部。我们从经验上研究了该集合对文章病毒性预测的示例任务的使用。
translated by 谷歌翻译
本文研究了“探索性”机器学习分类问题的置信后的事后校准。这些问题的困难源于持续的愿望,即在策划数据集时具有足够的例子来推广哪些类别的界限以及对这些类别的有效性的混乱。我们认为,对于此类问题,必须使用“单一的所有”方法(顶级标签校准),而不是文献中其他地方提倡的“校准 - 满足 - 响应 - 摩托克质”方法。我们介绍并测试了四种旨在处理特定置信度估计的特质的新算法。这些方法中的主要主要是将内核密度比用于置信度校准,包括用于选择带宽的新颖的防弹算法。我们测试了我们的主张,并探讨了生物信息学应用程序(Phanns)1以及经典的MNIST基准2。最后,我们的分析认为,事后校准应始终执行,应仅基于测试数据集,并且应在视觉上进行理智检查。
translated by 谷歌翻译
随着深度神经网络(DNN)已变得越来越普遍的工作量,可用于帮助其发展和部署的图书馆和工具范围已大大增长。可扩展的生产质量工具可在允许的许可下免费获得,并且可以访问足够多,甚至可以使小型团队变得非常有生产力。但是,在研究界,该工具的意识和使用不一定是广泛的,研究人员可能会因利用最新工具和工作流而缺少潜在的生产力提高。本文介绍了一个案例研究,我们讨论了我们最近生成端到端人工智能检测应用程序的经验。我们详细介绍了我们利用的高级深度学习库,容器化工作流,连续集成/部署管道以及开源代码模板,以产生竞争结果,与三个目标数据集的其他排名解决方案的性能匹配。我们强调了利用此类系统甚至可以为研究带来的价值,并详细介绍我们的解决方案,并在服务器类GPU上的准确性和推理时间以及服务器类CPU上的推理时间以及A的推理时间以及A覆盆子Pi 4。
translated by 谷歌翻译
全身动态PET中的受试者运动引入了框架间的不匹配,并严重影响参数成像。传统的非刚性注册方法通常在计算上是强度且耗时的。深度学习方法在快速速度方面实现高精度方面是有希望的,但尚未考虑示踪剂分布变化或整体范围。在这项工作中,我们开发了一个无监督的自动深度学习框架,以纠正框架间的身体运动。运动估计网络是一个卷积神经网络,具有联合卷积长的短期记忆层,充分利用动态的时间特征和空间信息。我们的数据集在90分钟的FDG全身动态PET扫描中包含27个受试者。与传统和深度学习基线相比,具有9倍的交叉验证,我们证明了拟议的网络在增强的定性和定量空间对齐方面获得了卓越的性能在显着降低参数拟合误差中。我们还展示了拟议的运动校正方法的潜力来影响对估计参数图像的下游分析,从而提高了将恶性与良性多代谢区域区分开的能力。一旦受过培训,我们提出的网络的运动估计推理时间比常规注册基线快460倍,表明其潜力很容易应用于临床环境中。
translated by 谷歌翻译
Inspired by progress in large-scale language modeling, we apply a similar approach towards building a single generalist agent beyond the realm of text outputs. The agent, which we refer to as Gato, works as a multi-modal, multi-task, multi-embodiment generalist policy. The same network with the same weights can play Atari, caption images, chat, stack blocks with a real robot arm and much more, deciding based on its context whether to output text, joint torques, button presses, or other tokens. In this report we describe the model and the data, and document the current capabilities of Gato.
translated by 谷歌翻译
基于参数统计模型的经验贝叶斯(EB)方法如负二项式(NB)已广泛用于道路网络安全筛选过程中的排名位点。本文是提出基于条件生成对冲网络(CGAN)的新型非参数EB方法的新型研究,其中提出了一种基于条件生成的对冲网络(CGAN)的模拟频率数据数据。与参数方法不同,在提议的CGAN-EB中,无所决的和独立变量之间不需要预先指定的底层关系,他们能够建模任何类型的分布。该拟议的方法现在应用于从2012年至2017年在华盛顿州的道路段收集的真实数据集。与模型拟合,预测性能和网络筛查结果的Cgan-EB的性能与作为基准的传统方法(NB-EB)进行比较。结果表明,在预测权力和热点识别测试方面,所提出的Cgan-EB方法优于NB-EB。
translated by 谷歌翻译
在本文中,提出了一种称为Cgan-EB的新非参数型经验贝叶斯方法,用于近似经验贝叶斯(EB)估计,这些经验贝叶斯(例如,道路段)中的估计是深度神经网络的建模优势,其性能基于负二项式模型(NB-EB)的传统方法模拟研究比较。 NB-EB使用负二项式模型来模拟崩溃数据,并且是实践中最常见的方法。为了在所提出的Cgan-EB中模拟崩溃数据,使用条件生成的对抗网络,这是一种强大的深度神经网络的方法,可以模拟任何类型的分布。设计并进行了许多仿真实验,以评估不同条件下的Cgan-EB性能,并将其与NB-EB进行比较。结果表明,当条件有利于NB-EB模型时,Cgan-EB执行以及NB-EB的表现(即数据符合NB模型的假设),并且在实验中的实验中占NB-EB的胜度,特别是低于实际遇到的条件样本方式,当碰撞频率不遵循与协变量的对数线性关系。
translated by 谷歌翻译
Variational inference uses optimization, rather than integration, to approximate the marginal likelihood, and thereby the posterior, in a Bayesian model. Thanks to advances in computational scalability made in the last decade, variational inference is now the preferred choice for many high-dimensional models and large datasets. This tutorial introduces variational inference from the parametric perspective that dominates these recent developments, in contrast to the mean-field perspective commonly found in other introductory texts.
translated by 谷歌翻译
Knowledge graphs (KG) have served as the key component of various natural language processing applications. Commonsense knowledge graphs (CKG) are a special type of KG, where entities and relations are composed of free-form text. However, previous works in KG completion and CKG completion suffer from long-tail relations and newly-added relations which do not have many know triples for training. In light of this, few-shot KG completion (FKGC), which requires the strengths of graph representation learning and few-shot learning, has been proposed to challenge the problem of limited annotated data. In this paper, we comprehensively survey previous attempts on such tasks in the form of a series of methods and applications. Specifically, we first introduce FKGC challenges, commonly used KGs, and CKGs. Then we systematically categorize and summarize existing works in terms of the type of KGs and the methods. Finally, we present applications of FKGC models on prediction tasks in different areas and share our thoughts on future research directions of FKGC.
translated by 谷歌翻译